智能论文笔记

Using data from cardiovascular surgery patients with long and highly variable post-surgical lengths of stay (LOS), we develop a modeling framework to reduce recovery unit congestion. We estimate the LOS and its probability distribution using machine learning models, schedule procedures on a rolling basis using a variety of optimization models, and estimate performance with simulation. The machine learning models achieved only modest LOS prediction accuracy, despite access to a very rich set of patient characteristics. Compared to the current paper-based system used in the hospital, most optimization models failed to reduce congestion without increasing wait times for surgery. A conservative stochastic optimization with sufficient sampling to capture the long tail of the LOS distribution outperformed the current manual process and other stochastic and robust optimization approaches. These results highlight the perils of using oversimplified distributional models of LOS for scheduling procedures and the importance of using optimization methods well-suited to dealing with long-tailed behavior.

translated by 谷歌翻译

部署机器学习模型需要高模型质量，并且需要遵守应用程序限制。这激发了超参数优化（HPO），以调整部署约束下的模型配置。这些约束通常需要额外的计算成本来评估，而训练不合格的配置可能会浪费大量的调整成本。在这项工作中，我们提出了一种自适应约束，早期停止方法（ACE）方法将约束评估纳入HPO期间的试验修剪。为了最大程度地降低总体优化成本，ACE根据对预期评估成本的理论分析估算了成本效益的约束评估间隔。同时，我们提出了ACE中的早期停止标准，该标准在修剪中考虑了优化和约束指标，并且不需要正则化超标剂。我们的实验表明，在公平或鲁棒性约束下，ACE在分类任务的超参数调整中的出色表现。

translated by 谷歌翻译

在典型的优化问题中，任务是选择成本最低或最高价值的多个选项之一。实际上，这些成本/价值数量通常是通过诸如嘈杂的测量或机器学习等过程来实现的，具有可量化的噪声分布。要考虑到这些噪声分布，一种方法是假设值的先验，使用它来构建后部，然后应用标准随机优化来选择解决方案。但是，在许多实际应用中，此类先前的分布可能没有可用。在本文中，我们使用遗憾最小化模型研究了这种情况。在我们的模型中，任务是在$ n $值中选择最高的一个。这些值是未知的，并由对手选择，但是可以通过嘈杂的通道观察到，在噪声通道中，从已知的分布开始添加噪声。目的是最大程度地减少我们选择的遗憾，该遗憾定义为最高值选择的最高值和所选值之间的预期差异。我们表明，挑选最高观测值的na \“我的算法也对最佳级别的遗憾也后悔，即使$ n = 2 $，并且噪声是公正的。对于任何$ n $的最佳遗憾。我们的算法在概念上是简单的，计算上的效率，并且仅需要对噪声分布的最小知识。

translated by 谷歌翻译

Contextual Bandits with Cross-learning

Santiago Balseiro , Negin Golrezaei , Mohammad Mahdian , Vahab Mirrokni , Jon Schneider

分类：机器学习 | (统计)机器学习

2018-09-25

在古典语境匪徒问题中，在每轮$ t $，学习者观察一些上下文$ c $，选择一些动作$ i $执行，并收到一些奖励$ r_ {i，t}（c）$。我们考虑此问题的变体除了接收奖励$ r_ {i，t}（c）$之外，学习者还要学习其他一些上下文$的$ r_ {i，t}（c'）$的值C'$ in设置$ \ mathcal {o} _i（c）$;即，通过在不同的上下文下执行该行动来实现的奖励\ mathcal {o} _i（c）$。这种变体出现在若干战略设置中，例如学习如何在非真实的重复拍卖中出价，最热衷于随着许多平台转换为运行的第一价格拍卖。我们将此问题称为交叉学习的上下文匪徒问题。古典上下围匪徒问题的最佳算法达到$ \ tilde {o}（\ sqrt {ckt}）$遗憾针对所有固定策略，其中$ c $是上下文的数量，$ k $的行动数量和$ $次数。我们设计并分析了交叉学习的上下文匪徒问题的新算法，并表明他们的遗憾更好地依赖上下文的数量。在选择动作时学习所有上下文的奖励的完整交叉学习下，即设置$ \ mathcal {o} _i（c）$包含所有上下文，我们显示我们的算法实现后悔$ \ tilde {o}（ \ sqrt {kt}）$，删除$ c $的依赖。对于任何其他情况，即在部分交叉学习下，$ | \ mathcal {o} _i（c）| <c $ for $（i，c）$，遗憾界限取决于如何设置$ \ mathcal o_i（c）$影响上下文之间的交叉学习的程度。我们从Ad Exchange运行一流拍卖的广告交换中模拟了我们的真实拍卖数据的算法，并表明了它们优于传统的上下文强盗算法。

translated by 谷歌翻译